「我的特殊技能是,理解你的意圖、解答你的問(wèn)題,幫你取放物品,你看看需要我做什麼呢?」
在眾人的注視下,人形機(jī)器人「夸父」依次完成了識別華為雲相關(guān)物品、問(wèn)答互動(dòng)、擊掌等動(dòng)作。
令人驚訝的是,通過(guò)對(duì)話(huà),「夸父」理解了口渴的情境,在擺放著瓶裝水、白色盒子、蘋果的桌面,選擇了「可以解渴」的瓶裝水並成功拿起遞給指令者。
走進(jìn)華為開(kāi)發(fā)者大會(huì)(HDC 2024)現(xiàn)場(chǎng),可以看到,以掃地機(jī)器人、機(jī)械臂、無(wú)人機(jī)為代表的傳統(tǒng)機(jī)器人敘事已經(jīng)被徹底顛覆。給類(lèi)人身體的機(jī)器人安裝上大模型大腦,打開(kāi)了無(wú)限的想像空間。
人類(lèi)對(duì)機(jī)器人的終極期待是什麼,答案已經(jīng)呼之欲出。
但技能操作訓(xùn)練數(shù)據(jù)的獲取和機(jī)器人技能操作的泛化和可遷移性,依然是具身智能演進(jìn)過(guò)程中的難題。
對(duì)此,華為常務(wù)董事、華為雲CEO張平安指出,「多模態(tài)大模型的理解與生成能力的快速發(fā)展,讓具身智慧機(jī)器人成為了可能。 」
「正如大家所期望的,讓機(jī)器人幫助我們去洗衣、做飯、掃地,我們會(huì)有更多的時(shí)間去看書(shū),寫(xiě)詩,作畫。」
當(dāng)機(jī)器人擁有「大腦」
「人形機(jī)器人真正的爆發(fā),需要強(qiáng)人工智慧支撐它走入場(chǎng)景中。」這個(gè)觀(guān)點(diǎn),樂聚董事長(zhǎng)冷曉琨堅(jiān)持了很多年。
「人形機(jī)器人爆發(fā)必須要滿(mǎn)足兩(liǎng)個(gè)條件:像博士一樣聰明,像家電一樣便宜。像家電一樣便宜,是機(jī)器人本體企業(yè)要做的產(chǎn)業(yè)化,像博士一樣聰明,則需要強(qiáng)智能去解決不同場(chǎng)景的泛化問(wèn)題。」
冷曉琨知道自己的長(zhǎng)處,自2016年創(chuàng)立樂聚機(jī)器人以來(lái),他一直在「小腦」的部分發(fā)力,控制人形機(jī)器人的成本、研究算法讓機(jī)器人兩(liǎng)條腿穩(wěn)定行走,「產(chǎn)業(yè)化」成為公司的核心優(yōu)勢(shì)。
但他明白,更重要的「0-1」的奇點(diǎn)時(shí)刻還未到來(lái),自己還需要等待。直到大模型出現(xiàn),他很快就意識到,人形機(jī)器人的「大腦」來(lái)了。
一方面,通過(guò)多模態(tài)環(huán)境感知信息的整合,大模型可以幫助人形機(jī)器人進(jìn)行更高效的決策和規(guī)劃(huà);另一方面,大模型提供了高層級(jí)的視覺和語言智能,形成行為數(shù)位化、知識遷移的良好路徑。
在他看來(lái),知識遷移、行為數(shù)位化正是人形機(jī)器人和大模型結(jié)合最核心的點(diǎn)。
冷曉琨感到機(jī)會(huì)臨近,自己必須加快步伐,尋求和大模型廠(chǎng)商的合作。一方面,旗下機(jī)器人需要大模型解決泛化問(wèn)題;另一方面,構(gòu)建機(jī)器人大模型,需要收集大規(guī)模機(jī)器人操作數(shù)據(jù)集、攻關(guān)基礎(chǔ)大模型架構(gòu)、算力平臺(tái)、雲端平臺(tái),是一個(gè)投入巨大的工作,他需要找到一個(gè)有深厚積累的合作方。
恰在此時(shí),華為雲盤(pán)古大模型出現(xiàn)在他面前。初步接洽後,雙方很快就確定了合作方向,除了打造人形機(jī)器人產(chǎn)品,更重要的是孵化出一套通用的具身智慧機(jī)器人解決方案。
「『人形機(jī)器人+大模型』的工作流程,從本體控制、數(shù)據(jù)採集、模型訓(xùn)練、部署、邊端側部署、雲端訓(xùn)練,需要一套完善的工作鏈,構(gòu)建持續(xù)演進(jìn)的數(shù)據(jù)飛輪。」
合作中,雙方將打通技術(shù)路線(xiàn),聯(lián)合構(gòu)建人形機(jī)器人標(biāo)準(zhǔn)數(shù)據(jù)集、系統(tǒng)和工具鏈,孵化出面向家居、工業(yè)等多場(chǎng)景的解決方案。在HDC 2024現(xiàn)場(chǎng),這套解決方案的階段性成果首次亮相。
「如果沒有大模型的爆發(fā),人形機(jī)器人可能還追不上這波熱潮。」冷曉琨說(shuō)。
「AI新貴」
包括冷曉琨在內(nèi),許多人都意識到了大模型的到來(lái),給人形機(jī)器人提供了關(guān)鍵的發(fā)展契機(jī)。近一年來(lái),具身智能成為了AI領(lǐng)域討論熱度最高的概念之一。
當(dāng)然,人形機(jī)器人不能和具身智能劃(huà)等號(hào),具身智能涵蓋的範圍應(yīng)該更廣(guǎng)。具體應(yīng)該如何理解具身智能,清華大學(xué)交叉信息研究院助理教授許華哲認(rèn)為,可以從三個(gè)層面理解:首先是具有身體的智能,再深一層是通過(guò)和現(xiàn)實(shí)世界的交互來(lái)提升智能,更深一層是擁有「我」的主體,感官、傳感器、經(jīng)歷都是私有的,所有數(shù)據(jù)都來(lái)自於自己。
業(yè)界普遍認(rèn)為,具身智能將是人工智慧領(lǐng)域的下一波浪潮,這股樂觀(guān)的情緒也傳遞到了資本市場(chǎng)。
高盛研究報(bào)告最新預測(cè),到2035年,全球人形機(jī)器人的市場(chǎng)容量將達(dá)到380億美元,是此前預期的60億美元的6倍以上。影響這一增長(zhǎng)的關(guān)鍵因素,是機(jī)器人大語言模型的進(jìn)步。
數(shù)據(jù)顯示,近半年,國(guó)內(nèi)出現(xiàn)了近百家機(jī)器人公司,許多非機(jī)器人背景企業(yè)也爭(zhēng)相湧入賽道。
為何會(huì)在此時(shí)掀起一波具身智能熱潮,對(duì)於其背後的技術(shù)驅動(dòng)因素,許華哲認(rèn)為,有兩(liǎng)點(diǎn)值得關(guān)注,一個(gè)是本體積累到了一定的水平,機(jī)器人製造成本下降,性能並沒有降低。
另一個(gè),更加核心的在於智能技術(shù)的突破,包括大模型和算法。
在具身智能中,大模型主要扮演三重角色:一是理解,承擔(dān)具身智能裡語義理解和判斷規(guī)劃(huà)的部分;二是扮演「老師」,大模型起到了很好的示範作用,讓大家看到,神經(jīng)網(wǎng)絡(luò)能產(chǎn)生一種規(guī)模效應(yīng),只要算法和目標(biāo)函數(shù)足夠好,隨著數(shù)據(jù)增多,具身智能的表現(xiàn)也會(huì)線(xiàn)性增強(qiáng);三是產(chǎn)生新的具身智能模型算法架構(gòu),比如VLA(Vision Language Action),就是以原生多模態(tài)大模型的方式去訓(xùn)練視覺、語言、動(dòng)作,將這三個(gè)模態(tài)聯(lián)合在一起。
另外,模仿學(xué)習(xí)和談話(huà)學(xué)習(xí)等相關(guān)技術(shù)的算法突破,讓研究者擁有了更好的數(shù)據(jù)擬合能力和在仿真裡做遷移、往現(xiàn)實(shí)中做遷移的能力。
「看起來(lái),具身智能離真正部署到現(xiàn)實(shí)場(chǎng)景中更近了。」
亦有隱憂
大模型到來(lái)儘管加速了發(fā)展,但距離真正的具身智能落地,似乎還有不容忽視的距離。
長(zhǎng)期以來(lái),具身智能都面對(duì)著高質(zhì)量訓(xùn)練數(shù)據(jù)缺失、複雜具身長(zhǎng)序任務(wù)規(guī)劃(huà)難、可泛化的雙臂協(xié)同多任務(wù)處理不易、缺乏統(tǒng)一的開(kāi)發(fā)工具套件等難題。
數(shù)據(jù)方面,物理世界的數(shù)位化還處於很初級(jí)的階段,具身智能需要現(xiàn)實(shí)世界數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,但從現(xiàn)實(shí)角度看,目前還很難獲取足夠的數(shù)據(jù)。
對(duì)此,許華哲舉了個(gè)例子,來(lái)說(shuō)明具身智能的「數(shù)據(jù)困境」。對(duì)大模型而言,網(wǎng)上的每一段對(duì)話(huà)、書(shū)裡的所有文字,人類(lèi)的知識都是高質(zhì)量的數(shù)據(jù)。但就具身智能而言,理想數(shù)據(jù)是人在各種場(chǎng)景下的行為數(shù)據(jù)。短時(shí)間內(nèi),我們還無(wú)法直接用人體數(shù)據(jù)去訓(xùn)練,只能利用具身智能本體。
「不過(guò),因為智能性不夠,沒有人願意用,不使用就採不了數(shù)據(jù),採不了數(shù)據(jù)智能性就提升不上去,這有點(diǎn)像雞生蛋蛋生雞的悖論。」
現(xiàn)在,國(guó)內(nèi)「機(jī)器人大腦」廠(chǎng)商都在努力驅動(dòng)這個(gè)數(shù)據(jù)飛輪的構(gòu)建,以促進(jìn)具身智能大模型的湧現(xiàn)能力出現(xiàn)。
有聲音提倡使用仿真合成數(shù)據(jù)去餵養(yǎng)機(jī)器人,但另一種聲音堅(jiān)持,數(shù)據(jù)需要從現(xiàn)實(shí)世界獲取,不能靠虛擬合成。截至目前,業(yè)內(nèi)還未形成同一的共識,這直接導(dǎo)致,具身智能大模型的泛化性與智能湧現(xiàn)成為下一個(gè)痛點(diǎn)。
隨著具身智能本體形態(tài)從傳統(tǒng)的協(xié)作機(jī)械臂、複合工業(yè)機(jī)器人、四足機(jī)器人向雙足類(lèi)人形的發(fā)展,對(duì)「大腦」提出了極高的挑戰。
但就眼下的情況來(lái)看,許多大模型的語料缺乏物理世界交互的數(shù)據(jù),無(wú)法勝任對(duì)物理空間任職要求高的任務(wù),也無(wú)法理解和預測(cè)當(dāng)前執(zhí)行序列對(duì)環(huán)境的作用和影響,無(wú)法勝任環(huán)境動(dòng)態(tài)性強(qiáng)的長(zhǎng)序列規(guī)劃(huà)。
與此同時(shí),現(xiàn)有的通用大模型多採用單個(gè)模型實(shí)現(xiàn)單個(gè)任務(wù),沒有在單模型下對(duì)多任務(wù)的大規(guī)模數(shù)據(jù)進(jìn)行訓(xùn)練,現(xiàn)有技術(shù)對(duì)任務(wù)、新環(huán)境泛化能力差,對(duì)於新任務(wù),只能重新訓(xùn)練模型,無(wú)法微調(diào)。
如何讓機(jī)器人像人一樣思考並根據(jù)實(shí)際情況作出長(zhǎng)序列自主規(guī)劃(huà),成為了桎梏具身智能走向應(yīng)用的關(guān)鍵問(wèn)題。
盤(pán)古大模型的解決之道
對(duì)於以上痛點(diǎn),盤(pán)古大模型採取的核心解決之道是,融合多種具身領(lǐng)域的不同模態(tài)數(shù)據(jù),藉助大模型對(duì)物理世界的通用知識理解,構(gòu)建具身智能領(lǐng)域大模型。
據(jù)介紹,盤(pán)古大模型5.0能夠精準(zhǔn)理解和重構(gòu)物理世界,支持在10k×10k的圖片中準(zhǔn)確理解微小的細(xì)節(jié)內(nèi)容,能夠根據(jù)行業(yè)的要求,生成出符合物理規(guī)律的內(nèi)容。機(jī)器人等智能設(shè)備可以從人類(lèi)的示範中學(xué)習(xí),從物理世界的反饋中成長(zhǎng)。
為了讓機(jī)器人更快的學(xué)習(xí)和應(yīng)用到複雜的場(chǎng)景,盤(pán)古大模型5.0還新增了多模態(tài)視頻生成能力,使用視頻生成大模型生成機(jī)器人需要的訓(xùn)練數(shù)據(jù),從而具備更多場(chǎng)景下的泛化能力。
面對(duì)多場(chǎng)景的綜合具身長(zhǎng)序任務(wù)規(guī)劃(huà)的難題,業(yè)界當(dāng)前只能規(guī)劃(huà)1-2步,但盤(pán)古大模型5.0,可以讓機(jī)器人能夠完成10步以上的複雜任務(wù)規(guī)劃(huà)。
這背後依賴於多模態(tài)具身XoT能力,能減少幻覺,提升任務(wù)規(guī)劃(huà)的可靠性,以及基於環(huán)境交互的自演進(jìn)能力,通過(guò)構(gòu)建任務(wù)驅動(dòng)的多模態(tài)值函數(shù)評(píng)估與本體和環(huán)境的匹配度,進(jìn)而迭代大腦適配小腦的任務(wù)規(guī)劃(huà)能力。
面向工業(yè)、家居等場(chǎng)景,具身智能缺乏可泛化的雙臂協(xié)同多任務(wù)處理能力,就必須對(duì)單個(gè)技能進(jìn)行訓(xùn)練。
盤(pán)古大模型5.0基於可擴展的Diffusion Transformer架構(gòu),很好地解決了動(dòng)作多樣性問(wèn)題,同時(shí)擴展輸(shū)入輸(shū)出和網(wǎng)絡(luò)規(guī)模,滿(mǎn)足大規(guī)模數(shù)據(jù)訓(xùn)練需求、確保圖像標(biāo)記專(zhuān)注於語言指令。
另一邊,盤(pán)古大模型5.0還使用了大規(guī)模開(kāi)源數(shù)據(jù)集以及仿真環(huán)境數(shù)據(jù)進(jìn)行自監(jiān)督預訓(xùn)練,對(duì)真實(shí)數(shù)據(jù)進(jìn)行圖像物體和背景增強(qiáng),並在新任務(wù)下進(jìn)行高效微調(diào),以實(shí)現(xiàn)泛化的、雙臂協(xié)同的、多任務(wù)並發(fā)處理。
通過(guò)通用的具身Agent框架,盤(pán)古大模型5.0還可以賦能不同的生態(tài)夥伴來(lái)快速構(gòu)建適配自己的本體硬體的場(chǎng)景化智能應(yīng)用。
這樣的思路無(wú)疑是正確的,許華哲提到,多模態(tài)是具身智能大模型的必備屬性,如果沒有語言和視覺,就很難理解真實(shí)的世界。生成能力也非常重要,雖然通過(guò)大模型生成的數(shù)據(jù)質(zhì)量不如仿真器,但勝在量極大、成本低且受真實(shí)條件限制少。
對(duì)於當(dāng)初選中盤(pán)古大模型的原因,冷曉琨提到,一個(gè)是技術(shù)寬度,盤(pán)古大模型是一系列大規(guī)模預訓(xùn)練模型,包含自然語言處理、計(jì)算機(jī)視覺、科學(xué)計(jì)算等領(lǐng)域。經(jīng)過(guò)有效整合,可以對(duì)人形機(jī)器人能力極大賦能。
另一個(gè)是技術(shù)深度,盤(pán)古大模型在多模態(tài)理解、生成等領(lǐng)域的持續(xù)創(chuàng)新與投入,使其具備了為人形機(jī)器人提供「聰明大腦」的基礎(chǔ),從而提升其在複雜任務(wù)場(chǎng)景下的操作水平。此外,盤(pán)古大模型在多個(gè)行業(yè)垂直領(lǐng)域大模型的實(shí)踐上,已有豐富的成果與應(yīng)用,他期待其後續(xù)能帶動(dòng)人形機(jī)器人走入更多的應(yīng)用場(chǎng)景。
張平安表示,除了人形機(jī)器人,盤(pán)古大模型還可以賦能工業(yè)機(jī)器人和服務(wù)機(jī)器人等多形態(tài)機(jī)器人, 讓它們幫助人類(lèi)去從事危險(xiǎn)和繁重的工作。
另外,除了具身智能行業(yè),依賴多模態(tài)特性,盤(pán)古大模型還在重塑各行各業(yè),形成了鋼鐵大模型、高鐵大模型、氣象大模型、媒體大模型等,重塑自動(dòng)駕駛、工業(yè)設(shè)計(jì)、建築設(shè)計(jì)等流程,和更多應(yīng)用場(chǎng)景得到結(jié)合。
落地已不再遙遠(yuǎn)
就像大模型發(fā)展到一定程度路徑會(huì)分化一樣,具身智能行業(yè)如今也出現(xiàn)了兩(liǎng)方意見(jiàn),理想派喜歡談AI與具身智能,將人形機(jī)器人視為終極形態(tài)與最高理想;現(xiàn)實(shí)派則更看重AI機(jī)器人與商業(yè)應(yīng)用場(chǎng)景的結(jié)合,講究短期內(nèi)的商業(yè)回報(bào)。
一個(gè)核心事實(shí)是,相比於大模型,具身智能的商業(yè)化道路更直接、也更易實(shí)現(xiàn)。
通用大模型往往要達(dá)到「湧現(xiàn)」後,才能產(chǎn)生商業(yè)價(jià)值,但對(duì)於具身智能,即便大腦未達(dá)到「湧現(xiàn)」,只要匹配了合適的場(chǎng)景和形態(tài),就能帶來(lái)商業(yè)利潤(rùn)。
許華哲指出,短期來(lái)看,雖然具身智能還無(wú)法擁有巨大的能力,但是它可以在一些局部的場(chǎng)景產(chǎn)生能力,進(jìn)而帶來(lái)收益,甚至失效之後帶來(lái)的損失也沒有那麼大。
根據(jù)媒體此前報(bào)導(dǎo),多位行業(yè)人士表示,儘管初等泛化能力的AI機(jī)器人還沒有頂尖聰明,但也有望在短期內(nèi)落地。
「人形機(jī)器人本體運(yùn)動(dòng)這部分,大家做得很好了,大模型智能性部分也足夠了,現(xiàn)在我們看到的問(wèn)題,更多是因兩(liǎng)者融合產(chǎn)生的。關(guān)於融合的創(chuàng)新性工作不是很多,這些需要時(shí)間才能磨出來(lái)。」冷曉琨表示。
在這場(chǎng)時(shí)間的賽跑中,中國(guó)已經(jīng)顯現(xiàn)出了一定的基礎(chǔ)優(yōu)勢(shì)。《人形機(jī)器人技術(shù)專(zhuān)利分析報(bào)告》顯示,近10年,我國(guó)在人形機(jī)器人技術(shù)專(zhuān)利上實(shí)現(xiàn)了從落後到跟跑乃至領(lǐng)跑,人形機(jī)器人專(zhuān)利申請數(shù)量和有效專(zhuān)利數(shù)量均位居全球第一。
更重要的是,作為製造業(yè)大國(guó),中國(guó)擁有良好的工業(yè)基礎(chǔ),供應(yīng)鏈優(yōu)勢(shì)明顯,企業(yè)能以更低的成本完成更高性能的本體。
冷曉琨深刻體會(huì)到了這一變化,2018年公司做第一臺(tái)全尺寸人形機(jī)器人時(shí),成本接近300萬(wàn),且核心的零部件都來(lái)源於進(jìn)口。但等到和華為一起發(fā)布夸父,不僅製造成本降低了90%,而且零部件基本實(shí)現(xiàn)了國(guó)產(chǎn)化,沒有一個(gè)依賴進(jìn)口。
而且,因為製造業(yè)發(fā)達(dá),所以中國(guó)對(duì)工業(yè)機(jī)器人的需求量也比較大,市場(chǎng)前景非常樂觀(guān)。
在此背景下,中國(guó)也在從頂端設(shè)計(jì)方面加緊具身智能布局,去年11月,工信部發(fā)布《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見(jiàn)》,提出到2025年,人形機(jī)器人創(chuàng)新體系初步建立;到2027年,綜合實(shí)力達(dá)到世界先進(jìn)水平,成為重要的經(jīng)濟(jì)增長(zhǎng)新引擎。
《意見(jiàn)》明確提出,人形機(jī)器人集成人工智慧、高端製造、新材料等先進(jìn)技術(shù),有望成為繼計(jì)算機(jī)、智慧型手機(jī)、新能源汽車(chē)後的顛覆性產(chǎn)品,將深刻變革人類(lèi)生產(chǎn)生活方式,重塑全球產(chǎn)業(yè)發(fā)展格局。當(dāng)前,人形機(jī)器人技術(shù)加速演進(jìn),已成為科技競(jìng)爭(zhēng)的新高地、未來(lái)產(chǎn)業(yè)的新賽道、經(jīng)濟(jì)發(fā)展的新引擎。
看起來(lái),中國(guó)將在全球具身智能競(jìng)賽中扮演重要的角色。有觀(guān)點(diǎn)稱(chēng),具身智能創(chuàng)業(yè)理應(yīng)在中國(guó)發(fā)生,而不是大洋彼岸的矽谷——相比之下,中國(guó)不僅有更強(qiáng)大的機(jī)器人生產(chǎn)能力、也有機(jī)器人應(yīng)用場(chǎng)景,需求供給都比矽谷更強(qiáng)勢(shì)。
許華哲認(rèn)可這種聲音,「幾十年工業(yè)體系帶來(lái)的積累,其他人確實(shí)比較難追趕。」
與此同時(shí),擁有更高泛化能力的具身智能,始終是行業(yè)追求的方向。
提到理想的具身智能,許華哲覺得,一方面它的智商和情感要和現(xiàn)有大模型水平匹配,另一方面應(yīng)該擁有基礎(chǔ)的工作能力。
這樣的具身智能應(yīng)該匹配怎樣的大模型,許華哲作出了設(shè)想,在訓(xùn)練端,大模型應(yīng)該可以給具身智能提供合成數(shù)據(jù),作為具身智能的規(guī)劃(huà)器和場(chǎng)景理解器;部署時(shí),大模型可能會(huì)是一個(gè)雲上的超級(jí)大腦。
「就像我們遇到一個(gè)事搞不定了,給一個(gè)專(zhuān)家朋友打電話(huà)一樣,大模型就是那個(gè)專(zhuān)家朋友。」
為了實(shí)現(xiàn)這樣的理想大模型,儘管道路曲折,但以華為為代表的企業(yè),已經(jīng)走在了正確的方向上。